提供者:卢梦依
下载地址:http://www.dcs.bbk.ac.uk/~ROGER/corpora.html
简介
数据集概述
birkbeck文件包含36133个拼写错误的6136个单词。它是由Birkbeck拼写错误语料库的母语者部分(英国或美国作家)所犯的错误合并而成的,这是一组从不同来源收集的拼写错误的文件,可以作为单独的文件,从牛津文本档案中获得详细的文档。它包括拼写测试和自由写作的错误,主要来自在校学生、大学生或成人识字学生。其中大部分是手写的。
文件
大小:总共包含42269个单词,其中是6136个正确的单词,36133个错误拼写的单词。
相关论文
1.Lee L H, Yu L C, Chang L P. Overview of the NLP-TEA 2015 Shared Task for Chinese Grammatical Error Diagnosis[C]// The Workshop on Natural Language Processing Techniques for Educational Applications. 2015.
2.Wu X, Huang P, Wang J, et al. Chinese Grammatical Error Diagnosis System Based on Hybrid Model[C]// The Workshop on Natural Language Processing Techniques for Educational Applications. 2015:117-125.
3.Zhao Y, Komachi M, Ishikawa H. Improving Chinese Grammatical Error Correction with Corpus Augmentation and Hierarchical Phrase-based Statistical Machine Translation[C]// The Workshop on Natural Language Processing Techniques for Educational Applications. 2015:111-116.
4.Wu S H, Chen P L, Chen L P, et al. Chinese Grammatical Error Diagnosis by Conditional Random Fields[C]// The Workshop on Natural Language Processing Techniques for Educational Applications. 2015:7-14.